当写代码变得不值钱之后

风格参考:万维钢(《精英日课》作者)—— 跨学科引证,框架式拆解,加粗关键洞察,用数据和类比交叉验证每个论点。

“软件开发正在从’以写代码为中心’转向’以编排写代码的智能体为中心’。” —— Anthropic,2026 Agentic Coding 趋势报告

引子:七个小时的独奏

2025 年,日本乐天集团做了一个实验。

他们让 Anthropic 的 Claude Code 在一个叫 vLLM 的开源项目里完成一项复杂的工程任务。vLLM 是一个用于大语言模型推理优化的框架,代码量在千万行级别。任务的复杂度相当于一个资深工程师需要数周才能完成的工作。

Claude Code 自主运行了 7 个小时,中间没有人类介入。

最终的产出达到了 99.9% 的数值精度。

这个案例不是我要讨论的重点——单个案例证明不了趋势。我真正想讨论的是:当这类案例开始批量出现时,软件工程这个行业的底层逻辑会发生什么变化?

Anthropic 在 2026 年初发布了一份趋势报告,试图回答这个问题。报告总结了 8 个趋势,涉及开发流程、智能体协作、组织形态和安全架构。这篇文章是对这份报告的一次逐层拆解——不仅仅是复述,更重要的是用跨学科的视角来检验这些趋势到底站不站得住脚。

在正式展开之前,有一个数字值得先记住:开发者在约 60% 的工作中使用 AI,但只能把 0–20% 的任务完全委派给 AI。 这个数字几乎决定了所有落地策略的方向——2026 年的核心挑战不是“要不要用 AI”,而是“如何把人与 AI 的协作系统化”。

一、从流水线到反馈回路:SDLC 的范式转换

1.1 一次堪比 GUI 出现的变革

报告把 agentic coding 对软件开发流程的影响,类比为图形用户界面(GUI)对计算机交互的影响——不是小修小补,而是交互层面的整体重构。

传统的软件开发生命周期(SDLC)是一条线性流水线:需求 → 设计 → 编码 → 测试 → 部署 → 运维。即便敏捷方法论把它缩短成了两周一个冲刺,底层逻辑仍然是“人来写代码,然后推进到下一个环节”。

报告预测的图景是:agent 驱动实现 + 自动测试 + 内联文档,会把周期从“数周”压缩到“数小时”。更关键的是,监控数据会直接回流到迭代入口——不再是“先发布再观察”,而是“持续发布、持续观测、持续调整”。线性流水线变成了高频反馈回路。

这听起来像是“一切都变快了”。但深入想一步,你会发现事情没那么简单。

1.2 利特尔定律的警告

运筹学里有一条基本定律,叫利特尔定律(Little’s Law)。它说的是:在一个稳定的排队系统里,队列中的平均项目数 = 到达率 × 平均等待时间。

翻译成软件工程的语言:如果你的代码产出速率翻了 5 倍(agent 帮你写),但你的 review 和验收速率没有跟上,那排队等待 review 的 PR 数量就会翻 5 倍。Lead time 不但不会缩短,反而可能变长。

这不是理论假设。任何做过大规模团队管理的工程经理都见过这个现象:开发阶段越快,瓶颈越容易转移到 code review、QA 和产品验收上。

我把这种现象概括为三种“新延迟”:

意图延迟: 需求和约束表达不清,agent 做得很快但做错了。这就像你对出租车司机说“去那个路口附近”——他开得飞快,但不是你想去的地方。

验收延迟: 人类 review 和审批的带宽没有跟上产出爆炸。上游的水龙头开大了,但下游的管道还是老粗细。

集成延迟: 多条变更并行落地时,冲突和回归问题急剧增加。这就是分布式系统里的“脑裂问题”在代码管理上的投影。

1.3 验收必须变成系统

那怎么办?

答案是:把验收标准前置成可执行的检查。

不管你叫它 TDD、contract tests、policy-as-code 还是什么别的,本质都是同一件事——把“口头标准”变成“机器可以验证的门禁”。这样 agent 的产出在落地之前就能被自动过滤,人类只需要处理那些机器无法判断的边界情况。

报告本身也提到了这个方向:“监控直接回流到快速迭代。”但我想把它说得更尖锐一点:在 agentic coding 时代,没有可执行验收标准的团队,会比没有 agent 的团队更慢。 因为你用 agent 制造了大量产出,但没有能力消化它。

二、从单打独斗到智能体“战队”

2.1 纺织业的第二次革命

让我用一个历史类比来说明多智能体协作的本质。

18 世纪的英国纺织业经历过一次著名的效率瓶颈。1764 年,詹姆斯·哈格里夫斯发明了珍妮纺纱机,纺纱速度一下子提高了 8 倍。但织布机的速度没变。结果是:纱线堆积如山,织工忙得要死,整个产业链反而失衡了。

直到 1785 年,埃德蒙·卡特赖特发明了动力织布机,纺和织的速度才重新匹配。再后来,工厂制度把纺纱、织布、染色、裁剪等环节组织成流水线,每个环节由专门的工人和机器负责,整个系统才真正高效运转。

多智能体协作要解决的,本质上就是这个问题——不是让单个 agent 跑得更快,而是让多个专业化的 agent 组成一条高效的流水线。

2.2 报告怎么说

报告预测 2026 年组织会更多使用“多个智能体协同”来处理复杂度。这需要新的工程能力:任务拆解、智能体专长分工、协调协议,以及能展示多并发会话状态的开发环境。

它还给了一个具体案例:Fountain 用 Claude 的分层多智能体编排来处理招聘流程(筛选、入职、转化等环节),把“新仓配中心完整招满人”的时间从一周以上降到 72 小时以内。

2.3 分布式系统的经验

如果你是一个做过微服务架构的工程师,你会觉得这一切似曾相识。

从单体服务拆分为微服务,你获得了可伸缩性和独立部署能力,但你也引入了一整套新的复杂度:服务发现、负载均衡、分布式事务、数据一致性、链路追踪、熔断降级。这些问题不是“可能会遇到”,而是“一定会遇到”。

多智能体编排面临完全相同的挑战。每个 agent 就是一个微服务——它有独立的上下文、独立的职责、独立的输入输出。当多个 agent 并行工作时,你需要:

  • 接口契约(agent 之间如何传递信息?格式和语义是否明确?)
  • 变更隔离(一个 agent 的错误如何防止扩散到整个系统?)
  • 自动集成测试(多个 agent 的产出合在一起之后,整体是否还能工作?)
  • 冲突解决(两个 agent 修改了同一个文件怎么办?)

康威定律说:系统的架构会映射组织的沟通结构。在多智能体时代,我们需要加一句:智能体系统的架构会映射你的编排协议的质量。 协议越清晰,系统越可靠;协议越模糊,灾难越近。

三、当 Agent 能跑好几天

3.1 从工具到系统

如果说多智能体协作改变的是“空间维度”(并行),那长跑智能体改变的就是“时间维度”(持续)。

报告预测 agent 的任务跨度会从分钟 → 小时 → 天级甚至周级。在最少人类介入的情况下,构建完整的应用或系统。人类主要在关键节点提供战略监督。

它还强调,长跑 agent 必须面对“软件开发的脏活现实”:持续规划、迭代、从失败恢复、跨多会话保持状态一致。这不是一个可以在理想条件下运行的系统——它必须在充满意外的真实世界里生存。

3.2 赫伯特·西蒙的预言

诺贝尔经济学奖得主赫伯特·西蒙在 1969 年的《人工科学》中提出了一个至今仍被低估的洞察:复杂系统要在不确定的环境中存活,必须具备层级结构(hierarchy),且每一层都能在自身层面上做出有意义的决策。

长跑 agent 正在逼近这个描述。一个跑几天的 agent 不是一个简单的“脚本”——它要做规划(决定接下来该做什么)、执行(写代码、跑测试)、恢复(失败了怎么回退)、记忆(记住之前做了什么和为什么)。这本质上就是西蒙所说的“层级化的自适应系统”。

3.3 你需要一个 Agent 运行平台

当 agent 能跑几天,你面对的就不再是“写代码工具”,而是一个持续运行的生产系统。这意味着你需要像管理一个服务一样管理它:

可观测性: agent 现在在做什么?进度如何?有没有卡住?

成本控制: 这次运行消耗了多少 token?多少 API 调用?是否在预算内?

故障隔离: 一次错误决策产生的影响范围是什么?如何防止级联失败?

权限管理: agent 能访问哪些资源?能做哪些操作?谁授权的?

审计追踪: 为什么做了这个决策?依据是什么?能不能事后追溯?

我把这个系统叫做 Agent Runtime。它在概念上类似于 CI/CD 平台,但职责更广。未来的软件团队很可能会像管理 CI/CD 一样管理它——谁能启动长跑任务?额度是多少?失败重试策略是什么?产出的代码如何被分桶 review?风险变更如何自动升级给人?

3.4 被释放的可能性

当然,长跑 agent 不只带来治理挑战,也释放了巨大的可能性。

报告提到:过去不划算的项目变得可行,积累多年的技术债可能被 agent 通过 backlog 系统性消除。创业者甚至能在“几天”而非“几个月”从想法到部署。

这让人想起克莱顿·克里斯坦森在《创新者的窘境》中提出的概念:技术进步会改变“够好”的门槛。 当数码相机的质量“够好”了,胶片行业就崩塌了——不是因为数码在画质上超过了胶片,而是因为“够好”加上“便宜且方便”就够了。

长跑 agent 可能以类似的方式改变软件行业的竞争格局:它让“够好的软件”变得极其便宜和快速,从而把竞争的焦点从“谁能写出来”转移到“谁的方向更准、谁的质量更可靠、谁的迭代更快”。

四、AI 审 AI:一个必须但危险的方向

4.1 信息过载的老问题

信息过载不是新问题。赫伯特·西蒙早在 1971 年就指出:“信息的丰富意味着注意力的贫乏。”

在 agentic coding 的语境下,这个问题以一种新的形式出现:agent 产出大量代码,人类的 review 注意力成为系统瓶颈。报告预测 2026 年的解决方案是——用 AI 来 review AI 的产出。 Agent 学会“什么时候该求助”,AI 负责做第一轮质量筛查(安全漏洞、架构一致性、代码质量),只把真正需要人类判断的部分标注出来。

这个方向是对的。当上游产出增长了数倍,如果下游还完全依赖人力,系统一定会崩溃。

但它有一个结构性风险。

4.2 同源错误:一种被低估的风险

想象一下:你写了一份报告,然后让你的同班同学帮你审阅。他也是用同样的教材学的、听同一个老师的课、做的同一批习题。他很大概率会跟你犯一样的错——你们的知识盲区高度重叠。

这就是“同源错误”的本质:生成和审查如果来自同类模型、同类训练数据、同类推理模式,它们出错的方式也会高度相关。 一个模型忽略了某个边界条件,另一个来自类似训练分布的模型很可能也会忽略。

统计学里有一个相关的概念叫多重共线性——当多个预测变量高度相关时,它们看起来提供了“多个独立验证”,但实际上只提供了“一个验证的多个复制品”。AI 审 AI 如果模型同源,就面临同样的风险。

4.3 独立证据链

怎么对冲同源错误?答案是构建独立证据链

所谓“独立”,是指验证方法在逻辑上独立于生成方法。AI 说“这段代码没问题”不算证据,测试跑过了才算。AI 说“没有安全漏洞”不算证据,扫描器确认了才算。AI 说“不会有回归”不算证据,灰度流量验证了才算。

具体来说:

  • 自动化测试: 单元测试、集成测试、端到端测试、属性测试
  • 静态分析: 类型检查、lint 规则、复杂度检查
  • 依赖审计: 安全漏洞扫描、许可证合规检查
  • 运行时验证: 监控告警、灰度发布、自动回滚

AI 可以帮你写这些证据链——事实上这是它的最佳用途之一。但最终,你必须让系统用事实约束智能体,而不是让一个智能体用“判断”约束另一个智能体。

卡尔·波普尔的科学哲学在这里是有用的:一个假说的价值不在于它被多少人(或多少个 AI)认同,而在于它经受了多少独立的否证尝试。 代码的可靠性也是如此。

五、民主化的两面

5.1 技能壁垒的坍塌

报告预测 agentic coding 会扩展到越来越多的“新表面”和“新用户”。

一方面是语言壁垒下降:COBOL、Fortran 等遗留语言也会得到 agent 支持,帮助维护旧系统。另一方面是角色壁垒下降:网络安全、运维、设计、数据等非传统开发者也能使用代码工具。更远一步,销售、市场、法务、运营等完全非技术的团队,也能用 agent 直接构建自动化方案。

Zapier 的案例很有代表性:他们推动全员使用 agent,设计团队能在客户访谈中实时做原型,组织 AI 采用率达到 89%,内部部署了 800 多个 AI agent。Anthropic 自家法务团队也用 Claude 把市场审核从 2–3 天缩短到 24 小时。

报告称之为“人人更 full-stack”:原本“会写代码/不会写代码”的边界变得可渗透。

5.2 Shadow IT 的教训

这里有一个历史教训值得注意。

2000 年代末,云计算和 SaaS 工具兴起之后,企业里出现了一个现象叫 Shadow IT——业务部门绕过 IT 部门,自己购买和使用各种云服务。销售团队用 Salesforce,市场团队用 HubSpot,财务团队用各种 SaaS 报表工具——每个部门都觉得自己解决了问题,但 IT 部门完全不知道有多少系统在运行、数据存在哪里、安全状况如何。

结果是:数据孤岛、安全漏洞、合规风险、维护成本飙升。Gartner 在 2017 年的报告中估计,Shadow IT 占企业 IT 支出的 30–40%。

Agentic coding 的“民主化”如果不加治理,会重演同样的故事——只不过更快、更猛烈。以前的 Shadow IT 只是“买了一个 SaaS”,现在的 Shadow IT 可能是“写了一个能访问客户数据库的自动化脚本”。

5.3 能力下放,风险上收

好的路径是什么?

企业提供统一平台:身份认证、权限管理、数据访问控制、审计日志、模板库、发布管道。业务团队在这个平台的护栏内自由创新。

坏的路径是:各部门各搞一套,数据权限混乱,没人负责维护,安全漏洞藏在各个角落。

分叉点在于一个原则:把能力下放,把风险上收。 能力让更多人能做事;风险必须由集中化的平台来兜底。

这也意味着工程团队的角色会发生转变——从“交付中心”变成“平台与治理中心”。它的价值不再是帮业务团队写代码,而是提供可复用的组件、安全边界、监控能力和发布管道。业务团队负责“最后一公里”;工程团队负责“高速公路 + 交规”。

六、更多产出的二阶效应

6.1 不只是“更快”,而是“更多”

报告有一个容易被忽略但非常重要的发现:生产率的提升主要来自“做了更多”,而不仅是“同样的事更快”。

具体数据是:约 27% 的 AI 辅助工作属于“否则根本不会做”的事情——扩展项目、做交互面板、探索性工作、修各种小痛点。TELUS 的团队创建了 13000 多个定制 AI 解决方案,同时工程代码交付提速 30%,节省 50 万小时以上。

27% 这个数字意味着:以前 ROI 不够高的体验优化、内部工具、质量改进、探索性实验,现在突然都值得做了。

6.2 杰文斯悖论的回声

这里有一个经济学上的经典现象值得警惕。

1865 年,英国经济学家杰文斯发现了一个反直觉的规律:蒸汽机效率越高,煤炭消耗反而越多——因为效率提升导致使用成本降低,更多场景开始使用蒸汽机,总消耗不降反升。这就是杰文斯悖论

在 agentic coding 的语境下,杰文斯悖论的含义是:写代码的成本越低,写出来的代码越多——系统复杂度也越高。

每个单独的“顺手加个功能”都是合理的。但累积起来,你的系统会越来越庞大、越来越复杂,直到超出你的测试覆盖、监控能力和团队理解力所能支撑的水平。

6.3 产出治理

所以你需要“产出治理”——这是一个听起来很官僚但实际上至关重要的能力:

给团队设定变更预算。 不是限制产出,而是确保每一批变更都经过了充分验证。就像一个银行不会因为“反正贷款利率低”就无限放贷一样。

用可量化指标守住质量底线。 缺陷率、回滚率、变更失败率、上线 lead time、线上事故率——这些指标的作用是当“更多产出”开始损害系统质量时,及时发出警报。

定期评估系统复杂度。 系统有多少个服务?多少个依赖?新成员上手需要多长时间?这些问题的答案如果在快速恶化,说明产出速度已经超出了你的治理能力。

七、安全:把 Agent 当作一种新身份

7.1 双刃剑

报告指出 agentic coding 在安全上是“双向改变”:一方面,任何工程师都能借助 AI 做安全审查和加固;另一方面,攻击者也能用同样的能力规模化攻击。

这并不新鲜——每一次技术民主化都伴随着“武器对等化”。火药让城堡不再安全,印刷术让信息垄断不再可能,互联网让大规模信息操纵变得廉价。agentic coding 会让代码级的攻击和防御都变得更快、更自动化。

7.2 Agent 是一种新的“身份主体”

但报告没有点透的一层是:大多数组织仍然把 agent 当作“更聪明的 IDE 插件”。

一个 coding agent 不只是帮你补全代码。它能调用工具、读写文件系统、触达数据库、触发部署流水线。它是一个有自主行为能力的“身份主体”(principal),就像一个新入职的员工一样——它需要有自己的身份、权限、审计记录和责任边界。

在计算机安全领域,有一个经典原则叫最小权限原则(Principle of Least Privilege),由 Jerome Saltzer 和 Michael Schroeder 在 1975 年提出:每一个主体只应该被赋予完成其任务所需的最小权限集。

把这个原则应用到 agent 上,你需要回答一系列问题:

  • 这个 agent 能访问哪些仓库?哪些环境?哪些数据?
  • 密钥和敏感信息如何隔离?
  • 它能不能直接部署到生产?如果能,门禁和回滚如何设计?
  • 发生错误或滥用时,责任归属和追踪怎么做?

如果你的安全架构里没有“agent”这个角色类型,你就是在用 2020 年的安全模型应对 2026 年的威胁面。

八、把一切收束:一个三层体系

8.1 报告的四个优先级

报告最后把建议压缩成 4 个优先方向:

  1. 掌握多智能体协作以处理单智能体无法覆盖的复杂度
  2. 用 AI 自动化 review 来扩展监督,把人类注意力聚焦在关键处
  3. 把 agentic coding 扩展到工程以外,赋能跨部门领域专家
  4. 从最早期就把安全架构嵌入 agent 系统设计

这四个方向都对。但它们需要一个共同的底座才能落地。

8.2 Agentic Engineering OS

如果要把这份报告翻译成一个可执行的组织框架,我会这样描述它:

意图层(Intent Layer): 这是整个系统的输入端。PRD、技术方案、验收标准、风险边界——尽量结构化、可复用、可被机器解析。这一层的质量直接决定了下游所有产出的质量。垃圾进垃圾出——这条朴素的工程真理在 agent 时代被放大了一百倍,因为 agent 会以极高的效率把你模糊的需求变成大量模糊的代码。

执行层(Execution Layer): 这是 agent 的主战场。多智能体编排、工具调用、长跑任务管理。这一层的核心指标是产出的速度和覆盖面。报告中的大部分趋势——多智能体、长跑 agent、非工程人群的扩展——都发生在这一层。

保证层(Assurance Layer): 这是整个系统的安全网。自动化测试、静态分析、监控告警、审计追踪、安全门禁、灰度发布、回滚机制、事后复盘。这一层的作用是用事实约束执行层的产出——不是让人相信 agent 做得对,而是让系统证明 agent 做得对。

三层之间的关系是:意图层决定方向,执行层负责产出,保证层确保可信。 三层都强的团队,才能真正吃到 agentic coding 的红利——周期压缩、产出放大、跨部门扩散与安全内建。

8.3 一个类比

如果你觉得这个框架太抽象,可以把它想象成一个现代化的自动驾驶系统。

意图层是导航系统——你输入目的地,它规划路线。路线越精确,抵达的概率越高。

执行层是发动机和传动系统——它负责让车跑起来。多智能体就像多缸发动机,并行出力。

保证层是刹车系统、安全气囊和车道保持——它们不创造速度,但它们决定了你能安全地使用多大的速度。

没有刹车系统的跑车,油门越大,死得越快。 这就是为什么“保证层”不是锦上添花,而是整个体系的生死线。

结语:什么东西变贵了

每一次技术变革都会改变“什么东西贵、什么东西便宜”的相对价格。

蒸汽机让体力变便宜,让能源管理变贵。印刷术让信息传播变便宜,让注意力变贵。互联网让分发变便宜,让信任变贵。

Agentic coding 让代码产出变便宜了。那什么东西变贵了?

正确的方向变贵了——因为 agent 会以极高的效率执行你的意图,如果意图是错的,你会极其高效地制造垃圾。

可验证的规格变贵了——因为模糊的需求会被 agent 变成大量模糊的代码,而你没有足够的人力去逐一检查。

可扩展的质量控制变贵了——因为产出量增长了数倍,但你的测试、监控和审计能力不会自动跟上。

可审计的安全边界变贵了——因为 agent 不再是被动工具,而是能主动行动的身份主体。

总结成一句话:代码不再稀缺之后,“可靠的变更”变成了真正的稀缺品。

这份报告给出的 8 个趋势,归根到底都在回答同一个问题:在代码不再稀缺的世界里,如何系统性地生产“可靠的变更”?

答案不是更强的模型——模型会继续进步,但那是 AI 公司的事。答案是更好的协作系统——把意图说清楚、让 agent 去执行、让保证层来兜底、让人类做最终裁决。

谁先把这套系统跑起来,谁就在新规则下领先。这不是预言,这是工程。